Diabetic Retinopathy (DR) is considered one of the primary concerns due to its effect on vision loss among most people with diabetes globally. The severity of DR is mostly comprehended manually by ophthalmologists from fundus photography-based retina images. This paper deals with an automated understanding of the severity stages of DR. In the literature, researchers have focused on this automation using traditional machine learning-based algorithms and convolutional architectures. However, the past works hardly focused on essential parts of the retinal image to improve the model performance. In this paper, we adopt transformer-based learning models to capture the crucial features of retinal images to understand DR severity better. We work with ensembling image transformers, where we adopt four models, namely ViT (Vision Transformer), BEiT (Bidirectional Encoder representation for image Transformer), CaiT (Class-Attention in Image Transformers), and DeiT (Data efficient image Transformers), to infer the degree of DR severity from fundus photographs. For experiments, we used the publicly available APTOS-2019 blindness detection dataset, where the performances of the transformer-based models were quite encouraging.
translated by 谷歌翻译
随着电子商务行业的扩散,分析客户反馈是服务提供商必不可少的。最近几天,可以注意到,客户以评论分数上传购买的产品图像。在本文中,我们承担了分析此类视觉评论的任务,这是非常新的。过去,研究人员致力于分析语言反馈,但是在这里,我们没有从语言评论中获得任何可能不存在的帮助,因为可以观察到最近的趋势,客户喜欢快速上传视觉反馈而不是输入语言反馈。我们提出了一个分层体系结构,高级模型参与产品分类,而低级模型则注意从客户提供的产品图像预测评论得分。我们通过采购真实的视觉产品评论来生成数据库,这非常具有挑战性。我们的体系结构通过对所采用的数据库进行广泛的实验,从而获得了一些有希望的结果。拟议的分层体系结构比单层最佳可比架构的性能提高了57.48%。
translated by 谷歌翻译
While human evaluation is the most reliable metric for evaluating speech generation systems, it is generally costly and time-consuming. Previous studies on automatic speech quality assessment address the problem by predicting human evaluation scores with machine learning models. However, they rely on supervised learning and thus suffer from high annotation costs and domain-shift problems. We propose SpeechLMScore, an unsupervised metric to evaluate generated speech using a speech-language model. SpeechLMScore computes the average log-probability of a speech signal by mapping it into discrete tokens and measures the average probability of generating the sequence of tokens. Therefore, it does not require human annotation and is a highly scalable framework. Evaluation results demonstrate that the proposed metric shows a promising correlation with human evaluation scores on different speech generation tasks including voice conversion, text-to-speech, and speech enhancement.
translated by 谷歌翻译
Synthetic data offers the promise of cheap and bountiful training data for settings where lots of labeled real-world data for tasks is unavailable. However, models trained on synthetic data significantly underperform on real-world data. In this paper, we propose Proportional Amplitude Spectrum Training Augmentation (PASTA), a simple and effective augmentation strategy to improve out-of-the-box synthetic-to-real (syn-to-real) generalization performance. PASTA involves perturbing the amplitude spectrums of the synthetic images in the Fourier domain to generate augmented views. We design PASTA to perturb the amplitude spectrums in a structured manner such that high-frequency components are perturbed relatively more than the low-frequency ones. For the tasks of semantic segmentation (GTAV to Real), object detection (Sim10K to Real), and object recognition (VisDA-C Syn to Real), across a total of 5 syn-to-real shifts, we find that PASTA outperforms more complex state-of-the-art generalization methods while being complementary to the same.
translated by 谷歌翻译
旨在进行巴氏杀菌和量化特定现象的任何方法都必须包括使用强大的统计方法进行数据分析。考虑到这一点,这项研究的目的是介绍非参数非均匀数据框架中可能采用的统计方法,并检查其在自然语言处理和语言集群领域的应用。此外,本文讨论了语言数据挖掘和处理中非参数方法的许多用途。数据深度思想允许在任何维度上进行中心排序,从而导致新的非参数多元统计分析,该分析不需要任何分布假设。层次结构的概念用于历史语言分类和结构化,其目的是使用相同的前提将语言组织和聚集到亚家族中。在这方面,当前的研究提出了一种基于通过各种语言的单词类型结构产生的非参数方法的语言家族结构的新方法,然后使用MDS将其转换为笛卡尔框架。这种基于统计深度的架构允许使用基于数据深度的方法来实现强大的离群检测,这对于理解各种边界语言的分类非常有用,并允许对现有分类系统进行重新评估。其他基于深度的方法也适用于无监督和监督聚类等过程。因此,本文概述了可以在非参数框架中应用于非均匀语言分类系统的过程。
translated by 谷歌翻译
染色揭示了抽吸物的微结构,同时创建组织病理学幻灯片。染色变异被定义为源和目标之间的色差差异,是由于染色过程中的特征变化引起的,导致分布变化和目标的性能差。染色归一化的目的是将目标的色谱分布与源的色谱分布相匹配。然而,染色归一化会导致潜在的形态变形,从而导致错误的诊断。我们提出了Fusion,这是一种通过在无监督的测试时间方案中调整模型来促进污渍适应的新方法,从而消除了目标末端进行重大标记的必要性。 Fusion通过更改目标的批准统一统计数据,并使用加权因子将其与源统计融合在一起。根据加权因子,该算法减少到两个极端之一。尽管缺乏培训或监督,但融合超过了分类和密集预测(细分)的现有等效算法,如两个公共数据集上的全面实验所证明的那样。
translated by 谷歌翻译
最近的反对抗性系统设计问题促使贝叶斯过滤器的反向发展。例如,最近已经制定了逆卡尔曼过滤器(I-KF),以估算对手的卡尔曼滤波器跟踪估计值,因此可以预测对手的未来步骤。本文和伴随论文(第一部分)的目的是通过提出反向扩展的卡尔曼过滤器(I-EKF)来解决非线性系统中的反过滤问题。在同伴论文(第一部分)中,我们发展了I-EKF(有或没有未知输入)和I-KF(未知输入)的理论。在本文中,我们为高度非线性模型开发了这一理论,该模型采用了二阶,高斯总和和抖动的前向EKF。特别是,我们使用有界的非线性方法来得出二阶EKF的理论稳定性保证。为了解决系统模型和正向滤波器对防御者完全知道的标准I-EKF的限制,我们建议复制核基于Hilbert Space基于空间的EKF,以根据其观察值学习未知的系统动力学,可以用作该动态反向过滤器推断对手的估计值。数值实验证明了使用递归的cram \'{e} r-rao下限作为基准测试的拟议过滤器的状态估计性能。
translated by 谷歌翻译
我们在定期马尔可夫决策过程(MDP)中学习学习,这是一种特殊类型的非平稳MDP,在平均奖励最大化设置下,状态过渡概率和奖励功能都定期变化。我们通过使用周期指数来扩大状态空间来将问题作为固定的MDP提出,并提出了定期上限置信度结合增强学习2(PUCRL2)算法。我们表明,pucrl2的遗憾随着时期和地平线长度的次线性而变化。数值结果证明了PUCRL2的功效。
translated by 谷歌翻译
对于使用高性能机器学习算法通常不透明的决策,人们越来越担心。用特定于领域的术语对推理过程的解释对于在医疗保健等风险敏感领域中采用至关重要。我们认为,机器学习算法应该可以通过设计来解释,并且表达这些解释的语言应与域和任务有关。因此,我们将模型的预测基于数据的用户定义和特定于任务的二进制函数,每个都对最终用户有明确的解释。然后,我们最大程度地减少了在任何给定输入上准确预测所需的预期查询数。由于解决方案通常是棘手的,因此在事先工作之后,我们根据信息增益顺序选择查询。但是,与以前的工作相反,我们不必假设查询在有条件地独立。取而代之的是,我们利用随机生成模型(VAE)和MCMC算法(未经调整的Langevin)来选择基于先前的查询 - 答案的输入的最有用的查询。这使得在线确定要解决预测歧义所需的任何深度的查询链。最后,关于视觉和NLP任务的实验证明了我们的方法的功效及其优越性比事后解释的优势。
translated by 谷歌翻译
基于深度学习(DL)的降尺度已成为地球科学中的流行工具。越来越多的DL方法被采用来降低降水量的降水量数据,并在局部(〜几公里甚至更小)的尺度上产生更准确和可靠的估计值。尽管有几项研究采用了降水的动力学或统计缩减,但准确性受地面真理的可用性受到限制。衡量此类方法准确性的一个关键挑战是将缩小的数据与点尺度观测值进行比较,这些观察值通常在如此小的尺度上是无法使用的。在这项工作中,我们进行了基于DL的缩减,以估计印度气象部(IMD)的当地降水数据,该数据是通过近似从车站位置到网格点的价值而创建的。为了测试不同DL方法的疗效,我们采用了四种不同的缩小方法并评估其性能。所考虑的方法是(i)深度统计缩小(DEEPSD),增强卷积长期记忆(ConvlstM),完全卷积网络(U-NET)和超分辨率生成对抗网络(SR-GAN)。 SR-GAN中使用的自定义VGG网络是在这项工作中使用沉淀数据开发的。结果表明,SR-GAN是降水数据缩减的最佳方法。 IMD站的降水值验证了缩小的数据。这种DL方法为统计缩减提供了有希望的替代方法。
translated by 谷歌翻译